研究|对偶学习：一种新的机器学习范式

作者：白开水 | 来源：互联网 | 2023-06-25 20:41

通过对偶学习将未标注数据用起来，从而达到降低对大规模

问题：如何降低对大规模标注数据的依赖性

近年来，以深度学习为代表的人工智能技术取得了长足的进步，在很多应用取得了巨大的成功。在图像识别中，深度学习已经超过了人类的水平，最近微软刚刚宣布在语音识别中也超过了人类的平均水平，在机器翻译中基于深度学习的模型也超过了以前的统计机器翻译，另外基于深度学习的阿法狗也打败了围棋世界冠军李世石。

深度学习之所以能够取得巨大的成功，一个非常重要的因素就是大数据，特别是大规模的带标签的数据。例如在图像识别中，深度神经网络使用上百万的带标签的图像进行训练，在机器翻译中我们会用上千万的双语句对进行训练，在围棋中我们会用上千万的专业棋手的落子进行训练……这种做法有两个局限性。首先，人工标注获取标签的代价很高。例如我们考虑机器翻译这个任务：现在市场人工翻译一个单词的价格差不多是5到10美分，如果一个句子的平均长度为三十个单词，那么1000万个句子人工翻译的代价差不多是7.5美分×30×1000万，约等于2200万美元。现在一个商业公司的翻译引擎通常支持上百种语言的相互翻译，为了训练这样规模的翻译模型，人工标注的代价就会达到上千亿美元。其次，在很多任务中，我们没办法收集到大规模的标注数据，例如在医疗中或在小语种的相互翻译。为了使深度学习能够取得更广泛的成功，我们需要降低其对大规模标注数据的依赖性。为了解决这个问题，我们提出了一种新的学习范式，我们把它称作对偶学习。

另辟蹊径，将未标注数据用起来

我们注意到，很多人工智能的应用涉及两个互为对偶的任务，例如机器翻译中从中文到英文翻译和从英文到中文的翻译互为对偶、语音处理中语音识别和语音合成互为对偶、图像理解中基于图像生成文本和基于文本生成图像互为对偶、问答系统中回答问题和生成问题互为对偶，以及在搜索引擎中给检索词查找相关的网页和给网页生成关键词互为对偶。这些互为对偶的人工智能任务可以形成一个闭环，使从没有标注的数据中进行学习成为可能。

对偶学习的最关键一点在于，给定一个原始任务模型，其对偶任务的模型可以给其提供反馈；同样的，给定一个对偶任务的模型，其原始任务的模型也可以给该对偶任务的模型提供反馈；从而这两个互为对偶的任务可以相互提供反馈，相互学习、相互提高。

下面我们还是以机器翻译为例子来说明对偶学习的基本思想。

考虑一个对偶翻译游戏，里面有两个玩家小明和爱丽丝，如下图所示。小明只能讲中文，爱丽丝只会讲英文，他们两个人一起希望能够提高英文到中文的翻译模型f和中文到英文的翻译模型g。给定一个英文的句子x，爱丽丝首先通过f把这个句子翻译成中文句子y1，然后把这个中文的句子发给小明。因为没有标注，所以小明不知道正确的翻译是什么，但是小明可以知道，这个中文的句子是不是语法正确、符不符合中文的语言模型，这些信息都能帮助小明大概判断翻译模型f是不是做的好。然后小明再把这个中文的句子y1通过翻译模型g翻译成一个新的英文句子x1，并发给爱丽丝。通过比较x和x1是不是相似，爱丽丝就能够知道翻译模型f和g是不是做得好，尽管x只是一个没有标注的句子。因此，通过这样一个对偶游戏的过程，我们能够从没有标注的数据上获得反馈，从而知道如何提高机器学习模型。

实际上这个对偶游戏和强化学习的过程比较类似。在强化学习中，我们希望提高我们的策略以最大化长远的回报，但是没有标注的样本告诉我们在某个状态x哪个动作y是正确的。我们只有通过使用这个策略在不同的状态下执行不同的动作，观测该动作带来的回报，从而改善我们的策略。在以上这个翻译对偶游戏中，两个翻译模型就是我们的策略，因为没有标注的双语句对，所以我们不能直接改善它们。这个对偶游戏把一个没有标注的句子x，先翻译成另外一种语言的句子y1，再翻译回来为x1，这里x就是强化学习中的状态，y1和x1就是我们的策略所执行的动作，x和x1的相似度就是我们获得的回报。

我们可以用已有的强化学习的算法来训练我们这两个翻译模型，比如策略梯度方法。策略梯度方法的基本思想非常简单：如果我们在执行某个动作之后，观测到了一个很大的回报，我们就通过调整策略（在当前策略函数的参数上加上它的梯度）来增加这个状态下执行这个动作的概率；相反，如果我们在执行某个动作之后，观测到了一个很小的回报，甚至是负的回报，那么我们就需要调整策略（在当前策略函数的参数上减去它的梯度），以降低在这个状态下执行这个动作的概率。

实测与展望

我们在一个英语-法语翻译的公共数据集上测试了对偶学习的有效性，并和当前最好的算法（NMT，基于深度神经网络算法）进行了对比。这个数据集的训练集有1200万个英法的双语句对，NMT用了所有的1200万个双语句对训练模型。我们的对偶算法只用了不到10%的双语句对初始化两个翻译模型f和g，再用没有标注的英法语句进行训练。如下图所示，我们的对偶学习算法只用10%的标注数据就达到了和NMT用上所有标注数据而取得的相似的甚至更好的翻译准确度，也就是说我们可以把数据标注的代价从2000万美元降到200万美元左右。这个结果说明了我们提出的对偶学习方法能够非常有效地利用未标注的数据。

对偶学习的基本思想是两个对偶的任务能形成一个闭环反馈系统，使我们得以从未标注的数据上获得反馈信息，进而利用该反馈信息提高对偶任务中的两个机器学习模型。该思想具有普适性，可以扩展到多个相关任务上面，前提是只要它们能形成一个闭环反馈系统。例如，从中文翻译到英文，然后从英文翻译到日文，再从日文翻译到中文。另外一个例子是从图片转化成文字，然后从文字转成语音，再从语音转化成图片。

对偶学习（dual learning）和已有的学习范式有很大的不同。首先，监督学习（supervised learning）只能从标注的数据进行学习，只涉及一个学习任务；而对偶学习涉及至少两个学习任务，可以从未标注的数据进行学习。其次，半监督学习（semi-supervised learning）尽管可以对未标注的样本生成伪标签，但无法知道这些伪标签的好坏，而对偶学习通过对偶游戏生成的反馈（例如对偶翻译中x和x1的相似性）能知道中间过程产生的伪标签（y1）的好坏，因而可以更有效地利用未标注的数据。我们甚至可以说，对偶学习在某种程度上是把未标注的数据当作带标签的数据来使用。第三，对偶学习和多任务学习（multi-task learning）也不相同。尽管多任务学习也是同时学习多个任务共的模型，但这些任务必须共享相同的输入空间，而对偶学习对输入空间没有要求，只要这些任务能形成一个闭环系统即可。第四，对偶学习和迁移学习（transfer learning）也很不一样。迁移学习用一个或多个相关的任务来辅助主要任务的学习，而在对偶学习中，多个任务是相互帮助、相互提高，并没有主次之分。因此，对偶学习是一个全新的学习范式，我们预计其会对机器学习领域产生很大的影响，特别是考虑到以下两个点。

第一，很多深度学习的研究人员认为人工智能和深度学习的下一个突破是从未标注的数据进行学习。由于未标注的数据没有标签信息，无监督学习主要聚焦在聚类、降维等问题，因此，如何从未标注的数据进行端到端的学习（把数据映射到标签，如分类、预测等任务）一直没有很好方法。我们提出的对偶学习提供了一个利用未标注数据进行端到端学习的有效方式。
第二，近年来强化学习取得了很大的成功，吸引了众多的研究人员和工业界人员的关注。但是到目前为止，强化学习的成功主要是在各种游戏上，因为在游戏中规则定义得非常清楚，并且很容易通过玩大量的游戏获取回报信息（例如Atari游戏中每一步的得分，围棋中最后的输赢），从而改善游戏策略。然而在游戏以外的实际应用中并没有规范定义的规则，也很难获得回报信息（或者获取的代价很高），因而强化学习在复杂的实际应用中的成功还是比较有限。而对偶学习提供了一种为强化学习获取奖励信息的方式，并证实了强化学习在复杂应用（如翻译）中成功的可能。

更多详细信息可点击【阅读原文】参见我们NIPS 2016 论文。

Di He, Yingce Xia, Tao Qin, Liwei Wang, Nenghai Yu, Tie-Yan Liu, and Wei-Ying Ma, Dual Learning for Machine Translation, NIPS 2016. （https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation ）

作者简介

秦涛

秦涛博士，现任微软亚洲研究院主管研究员。他和他的小组的研究领域是机器学习和人工智能，研究重点是深度学习和强化学习的算法设计、理论分析及在实际问题中的应用。他在国际顶级会议和期刊上发表学术论文80余篇,曾任SIGIR、ACML、AAMAS领域主席，担任多个国际学术大会程序委员会成员，包括ICML、NIPS、KDD、IJCAI、AAAI、WSDM、EC、SIGIR、AAMAS、WINE，曾任多个国际学术研讨会联合主席。他是IEEE、ACM会员，中国科学技术大学兼职教授和博士生导师。

你也许还想看：

大会|NIPS 2015大会上的新洞察
研究|微软科学家解决并行训练困境
开源|分布式机器学习工具包

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：msraai@microsoft.com。

微软小冰进驻微软研究院微信啦！快去主页和她聊聊天吧。

推荐阅读

js
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
js
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
js
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
js
计算成像的原理与应用研究

本文探讨了计算成像的原理与应用研究。首先介绍了小孔成像实验和软件方面的相关内容。随后从傅里叶光学的角度简单谈了成像的过程。成像是观测样品分布的一种方法，通过成像系统接收光的强度来呈现图像。视网膜作为接收端接收到的图像实际上是由像元组成的矩阵，每个元素代表相应位置像元接收光的强度。大脑通过对图像的分析，得出一系列信息，如识别物体、判断距离等。计算成像是一种采集记录系统，通过处理数据得到样品分布与像的对应关系，用于后续问题的分析。 ... [详细]

蜡笔小新 2023-12-13 11:40:23
js
词袋模型的通俗介绍

词,袋, ... [详细]

蜡笔小新 2023-12-12 08:20:03
web
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
web
macOS Big Sur全新设计大版本更新，10+个值得关注的新功能

本文介绍了Apple发布的新一代操作系统macOS Big Sur，该系统采用全新的界面设计，包括图标、应用界面、程序坞和菜单栏等方面的变化。新系统还增加了通知中心、桌面小组件、强化的Safari浏览器以及隐私保护等多项功能。文章指出，macOS Big Sur的设计与iPadOS越来越接近，结合了去年iPadOS对鼠标的完善等功能。 ... [详细]

蜡笔小新 2023-12-10 19:53:41
web
JavaScript疑难杂症系列相称性推断的知识点详解

本文详细解析了JavaScript中相称性推断的知识点，包括严厉相称和宽松相称的区别，以及范例转换的规则。针对不同类型的范例值，如差别范例值、统一类的原始范例值和统一类的复合范例值，都给出了具体的比较方法。对于宽松相称的情况，也解释了原始范例值和对象之间的比较规则。通过本文的学习，读者可以更好地理解JavaScript中相称性推断的概念和应用。 ... [详细]

蜡笔小新 2023-12-14 19:12:10
web
大数据就业前景及人才需求

近年来，大数据成为互联网世界的新宠儿，被列入阿里巴巴、谷歌等公司的战略规划中，也在政府报告中频繁提及。据《大数据人才报告》显示，目前全国大数据人才仅46万，未来3-5年将出现高达150万的人才缺口。根据领英报告，数据剖析人才供应指数最低，且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示，未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中，60%以上的招聘职位都是针对大数据人才的。 ... [详细]

蜡笔小新 2023-12-14 16:25:20
list
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
list
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
js
生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍

一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks（论文下载链接arxiv：[h ... [详细]

蜡笔小新 2023-12-14 11:39:45
web
JavaScript设计模式之策略模式（Strategy Pattern）的优势及应用

本文介绍了JavaScript设计模式之策略模式（Strategy Pattern）的定义和优势，策略模式可以避免代码中的多重判断条件，体现了开放-封闭原则。同时，策略模式的应用可以使系统的算法重复利用，避免复制粘贴。然而，策略模式也会增加策略类的数量，违反最少知识原则，需要了解各种策略类才能更好地应用于业务中。本文还以员工年终奖的计算为例，说明了策略模式的应用场景和实现方式。 ... [详细]

蜡笔小新 2023-12-14 09:31:45
web
收集一些好用的搜索引擎的替代品

本文介绍了一些好用的搜索引擎的替代品，包括网盘搜索工具、百度网盘搜索引擎等。同时还介绍了一些笑话大全、GIF笑话图片、动态图等资源的搜索引擎。此外，还推荐了一些迅雷快传搜索和360云盘资源搜索的网盘搜索引擎。 ... [详细]

蜡笔小新 2023-12-13 16:47:45
web
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38

白开水

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章